# built in python 3.5.2
# author=='hashaki'

import gym
# step()返回四个值，
# observation(object)：观察，一个鱼环境相关的对象描述你观察到的环境。如相机的像素信息，机器人的角速度和加速度
# reward(float):奖励，之前行为获得的所有回报之和
# done(bool)：判断是否到了重新设定(reset)环境的时刻了。done为true说明该episode完成
# info(dict)：用于调试的诊所信息。
env=gym.make('CartPole-v0')
for i in range(20):
    observation=env.reset()
    for j in range(100):
        env.render()
        print(observation)
        action=env.action_space.sample()
        observation,reward,done,info=env.step(action)
        if done:
            print('在训练集中最终在第{}步结束'.format(j+1))
            break